18 research outputs found

    An Ant Colony Optimization Based Feature Selection for Web Page Classification

    Get PDF
    The increased popularity of the web has caused the inclusion of huge amount of information to the web, and as a result of this explosive information growth, automated web page classification systems are needed to improve search engines’ performance. Web pages have a large number of features such as HTML/XML tags, URLs, hyperlinks, and text contents that should be considered during an automated classification process. The aim of this study is to reduce the number of features to be used to improve runtime and accuracy of the classification of web pages. In this study, we used an ant colony optimization (ACO) algorithm to select the best features, and then we applied the well-known C4.5, naive Bayes, and k nearest neighbor classifiers to assign class labels to web pages. We used the WebKB and Conference datasets in our experiments, and we showed that using the ACO for feature selection improves both accuracy and runtime performance of classification. We also showed that the proposed ACO based algorithm can select better features with respect to the well-known information gain and chi square feature selection methods

    Metadata-based and personalized web querying

    Get PDF
    Cataloged from PDF version of article.The advent of the Web has raised new searching and querying problems. Keyword matching based querying techniques that have been widely used by search engines, return thousands of Web documents for a single query, and most of these documents are generally unrelated to the users’ information needs. Towards the goal of improving the information search needs of Web users, a recent promising approach is to index the Web by using metadata and annotations. In this thesis, we model and query Web-based information resources using metadata for improved Web searching capabilities. Employing metadata for querying the Web increases the precision of the query outputs by returning semantically more meaningful results. Our Web data model, named “Web information space model”, consists of Web-based information resources (HTML/XML documents on the Web), expert advice repositories (domain-expert-specified metadata for information resources), and personalized information about users (captured as user profiles that indicate users’ preferences about experts as well as users’ knowledge about topics). Expert advice is specified using topics and relationships among topics (i.e., metalinks), along the lines of recently proposed topic maps standard. Topics and metalinks constitute metadata that describe the contents of the underlying Web information resources. Experts assign scores to topics, metalinks, and information resources to represent the “importance” of them. User profiles store users’ preferences and navigational history information about the information resources that the user visits. User preferences, knowledge level on topics, and history information are used for personalizing the Web search, and improving the precision of the results returned to the user. We store expert advices and user profiles in an object relational database iv v management system, and extend the SQL for efficient querying of Web-based information resources through the Web information space model. SQL extensions include the clauses for propagating input importance scores to output tuples, the clause that specifies query stopping condition, and new operators (i.e., text similarity based selection, text similarity based join, and topic closure). Importance score propagation and query stopping condition allow ranking of query outputs, and limiting the output size. Text similarity based operators and topic closure operator support sophisticated querying facilities. We develop a new algebra called Sideway Value generating Algebra (SVA) to process these SQL extensions. We also propose evaluation algorithms for the text similarity based SVA directional join operator, and report experimental results on the performance of the operator. We demonstrate experimentally the effectiveness of metadata-based personalized Web search through SQL extensions over the Web information space model against keyword matching based Web search techniques.Özel, Selma AyşePh.D

    A Review of Distance Learning and Learning Management Systems

    Get PDF
    In recent years, rapid developments in technology and the web have led to many changes in education. One of the most important changes in education is in the form of distance learning. Distance learning, which is used to define education where educators and learners are physically separated, is not a new concept; however, emerging technologies and the web allow web‐based distance learning and therefore increase its popularity. As a result of these developments, many universities have started to use web‐based distance learning systems to provide flexible education that is independent of time and place. In this chapter, we review all popular, widely used, and well‐known learning management systems and include detailed comparison of some of these systems to allow institutions to choose the right system for their distance education activities

    Programming of production scheduling algorithms

    No full text
    Üretim çizelgeleme faaliyetleri, üretim işletmelerinin verimliliğini büyük ölçüde etkilemektedir. İşletmelerin kaynaklarım etken olarak kullanabilmesi, aldığı siparişleri tam ve zamanında teslim edebilmesi ancak kısa sürede etkili üretim çizelgelerini oluşturabilmesiyle mümkündür. Gerçekte çoğu çizelgeleme problemi zordur ve manual olarak kısa sürede çözülemez. Bu nedenle, çizelgeleme problemlerinin çözümünde bilgisayar teknolojisi yoğun olarak kullanılmaktadır. Bu çalışmada üretim çizelgeleme algoritmalarının programlanması ve örnek bir uygulama programının geliştirilmesi üzerinde durulmuştur. İlk bölümlerde, genel çizelgeleme problemlerinin tanımlanması, sınıflandırılması ve bu konuda literatürde yer alan notasyonlar ele alınmıştır. Daha sonra, çizelgeleme problemleri programlama açısından ele alınıp, çizelgeleme problemlerinin zorluk dereceleri ve problemlerin zorluk derecelerine göre literatürde önerilen çözüm teknikleri incelenmiştir. Üçüncü bölümde örnek bir çizelgeleme problemi alınıp, bu problemin tanımından programın geliştirilmesine kadar geçen süreç ve bu sırada dikkat edilmesi gereken durumlar; dördüncü bölümde ise geliştirilen bilgisayar tabanlı çizelgeleme sisteminde yer alan veritabanı, kullanıcı arayüzü ve çizelgeleme modülleri açıklanıp, sistemin denenmesi ve elde edilen sonuçlar yer almaktadır. Son bölümde de sonuçlar tartışılmış ve değerlendirilmiştir. Örnek uygulama olarak otomotiv endüstrisindeki pres hatlarının çizelgelenmesi problemi ele alınmıştır. 2. Kaynak Araştırması bölümünde yer alan notasyonlar kullanılarak, problemin tanımı yapılmış ve tanımlanan problem ile literatürde yer alan çizelgeleme problemleri karşılaştırılarak, problemin aslında bir n \ m j P | Cmax problemi olduğu anlaşılmıştır. Problemin çözümüne geçmeden önce, problemin zorluk derecesi araştırılmış ve n | m \ P | Cmax probleminin NP~complete olduğu gösterilmiştir. Ele alınan problem NP-complete bir problem olduğundan, problemin çözümü için heuristik çözüm yöntemleri incelenmiştir. Pinedo (1995) da önerilen üç aşamalı algoritmik çözüm yöntemi, Blazewicz ve ark. (1986) da yer alan Liste Çizelgeleme algoritması ve Woolsey'in (1990) paralel makine çizelgeleme yöntemleri temel alınarak pres hatlarına uyarlanmış ve pres hattı çizelgeleme problemi için yeni bir yaklaşım önerilmiştir. Bu çalışmada gerçekleştirilen bilgisayar tabanlı çizelgeleme sistemi ile, pres atelyesi çizelgeleme problemine birkaç saniye gibi kısa sürede bir çözüm getirilebilmektedir.Production planning and scheduling activities affect the productivity of a production organization. Effective usage of resources and on time delivery of orders can only be achieved by good production plans and schedules which must be generated in a very short time. In real life, most of the production scheduling problems are extremely hard and can not be solved manually in a short time. For that reason, computer technology is frequently used in order to solve most of the production scheduling problems. This work is about programming of production scheduling algorithms, and the development of an example production scheduling software. In the first two sections, the definition and the classification of production scheduling problems, together with the notations used are explained. In the following sections, the programming aspect of the production scheduling problems are examined. For that purpose, the computational complexities and the solution methods of scheduling problems are discussed. In the third section, a real life scheduling problem is chosen and the steps, which should be followed during the process starting from the definition of the problem up to the development of a software for that problem, are defined. The fourth section covers the database management, the interface (I/O), and the scheduling modules of the developed software. Also, testing of the system and its results are in the fourth section. In the final section, all results are examined and discussed. As a real-life scheduling problem, scheduling of press lines is chosen. In this work, press lines scheduling problem is defined and compared with theoretical models. During the study, it is observed that, press lines scheduling problem can be modeled as an n \ m | P | Cmax problem. After that, the computational complexity of the n | m | P | Cmax problem is inspected and it is showed that the n j m \ P | Cmax problem is an NP-complete problem. Because of the complexity of the problem, heuristic solution methods are concerned, and the three-step algorithmic solution technique proposed by Pinedo (1995), the List Scheduling algorithm (Blazewicz and fri. 1986) and the parallel machine scheduling techniques of Woolsey (1990) are combined and updated for press lines. As a result, a new approach for scheduling press lines is proposed and programmed. By using the software developed for press lines, a solution for the problem can be found in a few seconds

    Türkçe ve İngilizce Yorumların Duygu Analizinde Doküman Vektörü Hesaplama Yöntemleri için Bir Deneysel İnceleme

    No full text
    Duygu analizi, verilen bir metin belgesinin genel yargısını, metin analizi ve doğal dil işleme teknikleri kullanarak belirleme işlemidir. Bu çalışmada, İngilizce ve Türkçe dillerinde yazılmış film ve ürün yorumlarının, Destek Vektör Makineleri (DVM) sınıflayıcısı kullanarak yapılan, duygu analizi deney sonuçları yer almaktadır. Bunun yanında, farklı doküman vektör hesaplama yöntemleri karşılaştırılmakta ve bu tekniklerin duygu analizi üzerindeki etkileri gösterilmektedir. DVM türleri, kernel çeşitleri, TF veya TF*IDF gibi ağırlıklandırma yöntemleri, TF türleri, IDF türleri, öznitelik oluşturma yöntemleri, öznitelik seçme sistemleri, metin önişleme teknikleri ve vektör normalizasyon teknikleri deneysel olarak analiz edilmektedir. Oluşturduğumuz Türkçe ürün yorumları veri kümesi üzerinde, doğrusal kernel ile kullanılan C-SVC DVM türü, log normalleştirme TF* olasılıklı IDF ağırlıklandırma yöntemi, L2 vektör normalizasyonu, Ki-kare öznitelik seçme ve tekli kelime öznitelikleri kullanılarak %91.33 doğruluk ile en iyi sonuç elde edilmiştir. Ayrıca doküman vektörü hesaplama yöntemlerinin Türkçe ve İngilizce veri kümeleri üzerindeki detaylı karşılaştırmaları da çalışmada yer almaktadır.Sentiment analysis is the task of identifying overall attitude of the given text documents by using text analysis and natural language processing techniques. In this study, we present experimental results of sentiment analysis on movie and product reviews datasets that are in Turkish and English languages by using a Support Vector Machine (SVM) classifier. Moreover, we compare different document vector computation techniques and show their effects on the sentiment analysis. We empirically evaluate SVM types, kernel types, weighting schemes such as TF or TF*IDF, TF variances, IDF variances, tokenization methods, feature selection systems, text preprocessing techniques and vector normalizations. We have obtained 91.33% accuracy as the best on our collected Turkish product reviews dataset by using C-SVC SVM type with linear kernel, log normalization TF* probabilistic IDF weighting scheme, L2 vector normalization, Chi-square feature selection, and unigram word tokenization. A very detailed comparison of the document vector computation methods over Turkish and English datasets are also presented

    A comparison of text similarity detection software for Turkish documents and investigating the effects of stemming and Turkish character usage

    No full text
    Web ortamındaki bilginin çoğalıp, Internet ve bilgi teknolojilerinin yaygın kullanılması hemen her alanda intihal vakalarının artmasına neden olmuştur. Örneğin, akademik ortamda bazı öğrenciler kendilerine eğitmenleri tarafından verilen ödevler üzerinde çeşitli intihal yöntemlerini uygulamaktadırlar. Bazı öğrenciler başkalarının çalışmasını herhangi bir değişiklik yapmadan ve sahibine atıfta bulunmadan kendi çalışması gibi gösterirken, bazı öğrenciler de diğerlerinin çalışmasını sadece bazı küçük değişiklikler yaparak sunmaktadır. Bu çalışmada amacımız intihal tespit yazılımlarından CopyCatchGold, Sherlock, SIM, WCopyFind, JPlag, YTÜ Kemik Grubu tarafından hazırlanan Metin Eşleştirme Sistemi ve Doküman Benzerliği programları ile kendi kodladığımız Kosinüs, Dice ve Jaccard metin benzerlik ölçütlerinin Türkçe örnek veri kümeleri üzerinde performanslarını karşılaştırmaktır. Buna ek olarak Türkçe karakter ve kelime köklerinin kullanımının intihal tespiti üzerindeki etkisi incelenmiştir. Sonuç olarak, Türkçe karakter kullanımının benzerlik tespitini azalttığı, ancak kelime köklerinin kullanımının ise intihal tespit araçlarının performansını arttırdığı gözlenmiştir.The increase in the amount of available information on the Web and widespread usage of the Internet and information technologies have caused to rise in occurrence of plagiarism in almost everywhere. As an example, in academia some students have performed a variety of plagiarism methods on their assignments given by the instructors. While some students show others' work by their own without making any changes and giving any reference to owner, some other students submit others' studies by making some small changes. In this study, our aim is to compare the performance of plagiarism detection software that are CopyCatchGold, Sherlock, SIM, WCopyFind, JPlag, two other software that are Text Matching System and Document Similarity developed by YTü Kemik Group, as well as our implemented Cosine, Dice, and Jaccard text similarity measures on Turkish sample datasets. In addition, we have investigated the effects of using Turkish character set and Turkish stemmer on plagiarism detection. Consequently, it was observed that using Turkish characters decreases similarity detection, using stemmed words on the other hands, increases the performance of plagiarism detection tools

    Effects of Feature Extraction and Classification Methods on Cyberbully Detection

    No full text
    Cyberbullying is defined as an aggressive, intentional action against a defenseless person by using the Internet, or other electronic contents. Researchers have found that many of the bullying cases have tragically ended in suicides; hence automatic detection of cyberbullying has become important. In this study we show the effects of feature extraction, feature selection, and classification methods that are used, on the performance of automatic detection of cyberbullying. To perform the experiments FormSpring.me dataset is used and the effects of preprocessing methods; several classifiers like C4.5, Naïve Bayes, kNN, and SVM; and information gain and chi square feature selection methods are investigated. Experimental results indicate that the best classification results are obtained when alphabetic tokenization, no stemming, and no stopwords removal are applied. Using feature selection also improves cyberbully detection performance. When classifiers are compared, C4.5 performs the best for the used dataset.</p

    Sanal Zorbalık Tespitinde Nitelik Çıkarımı ve Sınıflama Yöntemlerinin Etkileri

    No full text
    Cyberbullying is defined as an aggressive, intentional action against a defenseless person by using the Internet, or other electronic contents. Researchers have found that many of the bullying cases have tragically ended in suicides; hence automatic detection of cyberbullying has become important. In this study we show the effects of feature extraction, feature selection, and classification methods that are used, on the performance of automatic detection of cyberbullying. To perform the experiments FormSpring.me dataset is used and the effects of preprocessing methods; several classifiers like C4.5, Naïve Bayes, kNN, and SVM; and information gain and chi square feature selection methods are investigated. Experimental results indicate that the best classification results are obtained when alphabetic tokenization, no stemming, and no stopwords removal are applied. Using feature selection also improves cyberbully detection performance. When classifiers are compared, C4.5 performs the best for the used dataset.İnternet ya da diğer elektronik içerikleri kullanarak savunmasız kişilere karşı yapılan hakaretler sanal zorbalık olarak adlandırılmaktadır. Sanal zorbalık konusunda yapılan çalışmalar, bu hakaretlerin özellikle ergen yaş grubundaki gençler için intihara kadar sonuçlanan etkilerinin olduğunu göstermektedir. Bu sebeple sanal zorbalığın otomatik tespiti oldukça önemlidir. Bu çalışmada nitelik çıkarımı, nitelik seçimi ve sınıflama yöntemlerinin otomatik sanal zorbalık tespiti üzerindeki etkileri gösterilmektedir. Deneyler FormSpring.me veri kümesi üzerinde yapılmış ve önişleme yöntemlerinin; C4.5, Naive Bayes, kNN ve SVM gibi farklı sınıflayıcıların; bilgi kazancı ve ki kare nitelik seçim yöntemlerinin etkileri araştırılmıştır. Deneysel sonuçlar, en iyi sınıflandırma performansının alfabetik karakterlerin alındığı, durma kelimelerinin silinmediği ve kelime köklerine ayırma işleminin yapılmadığı durumlarda elde edildiğini göstermiştir. Nitelik seçimi sınıflandırma performansını arttırmıştır. Kullanılan sınıflayıcılar karşılaştırıldığında C4.5, kullanılan veri kümesi için en iyi yöntem olmuştur

    "En İyi Ürün" Sorgularını Destekleyen Bir Ürün Arama Motoru

    No full text
    Bu çalışmada, "verilen bir kategori için en iyi ürünleri bul" tarzındaki sorguları destekleyen özgün bir ürün arama motoru sistemi önerilmektedir. Geliştirilen ürün arama motoru sistemi, bir odaklı tarayıcı, bir kayıt eşleştirme sistemi, bir duygu analizi sistemi ve bir sorgu motoru sisteminden oluşmaktadır. Odaklı tarayıcı sistemi çeşitli e-ticaret sitelerindeki ürün bilgilerini elde etmek için kullanılmaktadır; kayıt eşleştirme sistemi farklı e-ticaret sitelerinde satılan aynı ürünleri tespit etmektedir; duygu analizi sistemi ürünlere yapılan kullanıcı yorumlarını olumlu veya olumsuz olarak sınıflandırmakta ve bu sınıflandırma hangi ürünlerin aranan kategori için en iyi ürün olduğunu belirlemek için kullanılmaktadır ve sorgu motoru ise kullanıcıların sorgusunu alıp kullanıcılara sonuçları göstermektedir. Bütün sistem C# programlama dilinde .NET 4.5 alt yapısı kullanılarak geliştirilmiştir ve veri depolamak için MS-SQL 2014 veri tabanı yönetim sistemi kullanılmıştır. Önerilen sistemin temelini artımsal olacak şekilde değiştirilmiş Hiyerarşik Aglomeratif Kümeleme algoritmasına dayanan kayıt eşleştirme sistemi oluşturmaktadır. Kayıt eşleştirme işleminin başarısını artırmak için ürün kodu eşleştirme sistemi geliştirilmiştir. Bu sistem farklı e-ticaret sitelerinde satılan ismi farklı olarak yazılmış ancak aynı ürün koduna sahip ürünleri tespit edebilmektedir. Deneysel analizlerimiz sonucunda, e-ticaret ürünlerinin kayıt eşleştirmesinde %96,25 F-ölçeği ve en alakalı ürünler aramasında %100 kesinlik elde edilmiştir. Geliştirilen sistem verilen kategori içinde en iyi ürünleri başarılı bir şekilde kullanıcıya sunabilmektedir. Önerilen sistem mevcut sistemlere göre daha başarılı bir kullanıcı deneyimi sunabilmektedirIn this study, a novel product search engine system which supports -find the best products for a given category- type queries is proposed. The product search engine system consists of a focused crawler, a record linkage system, a sentiment analyzer, and a query engine system. The focused crawler is used to crawl product information from various e-commerce sites; the record linkage system determines the identical products that are crawled from different e-commerce sites; the sentiment analyzer classifies users' reviews about the products as positive or negative so that our product search engine can decide which product is the best for a given category; and the query engine takes the user queries and displays the result. All implementations are done by using C# programming language in .NET 4.5 framework, and MS-SQL Server 2014 database management system is employed for data storage. The core of our system is the record linkage part which is based on a modified incremental Hierarchical Agglomerative Clustering algorithm. To improve the success of record linkage process we also develop a product code matching system such that if the two products from different e-commerce sites have the same product code they are considered as the same. In our experimental analysis we observe 96.25% F-measure in record linkage of E-commerce products and 100% precision in most related products search. Our system can successfully offer best products for a given category. The proposed system achieves to provide better user experience than the existing systems
    corecore